.
«КТУЛХУ РОДОМ ИЗ УЭЛЬСА: 𝑁-грамм анализ частот Р'льехианского языка» (2020).
«Cthulhu Hails from Wales: N-gram Frequency Analysis of R'lyehian».
.
Статья из сборника научных публикаций «Материалы о последних достижениях в обработке Славянского естественного языка» (редактор А. Рамбоусек, Tribun EU, 2020), рассказывающего о работе XIV чешского семинара «RASLAN 2020», посвящённого обмену информацией между исследовательскими коллективами, работающими над проектами компьютерной обработки славянских языков и другими смежными областями, ориентированными на теоретические и технические аспекты языковых исследований, включая новые идеи.
.
Авторы: Вит Новотный (Vít Novotný) и Мария Стара (Marie Stará).
Факультет Информатики, Университет Масарика (MU), г. Брно, Чешская Республика.
.
В качестве эпиграфа:
«В криптоанализе, частотный анализ (также известный как подсчёт буквенных символов) — это изучение частоты букв или групп букв в зашифрованном тексте. Этот метод используется в качестве вспомогательного средства для взлома классических шифров. Частотный анализ основан на том факте, что в любом фрагменте письменного языка определённые буквы и их сочетания встречаются с разной частотой. Более того, существует характерное распределение букв, которое примерно одинаково почти для всех образцов того или иного языка».
____________________________
____________________________
.
Аннотация:
«Р'льехианский» (R’lyehian) — уникальный вымышленный язык, созданный плодотворым автором фантастических ужасов XX века Г.Ф. Лавкрафтом, и в последствии расширенный другими писателями. В фантастических произведениях Лавкрафта и его коллег-учеников, известных под общим названием «Мифы Ктулху», содержатся фрагменты некоего древнего инопланетного языка. Сам ГФЛ никогда не давал названия этому языку, однако консенсус многочисленных почитателей остановился на «Р’льехианском». В предыдущих работах, посвящённых Лавкрафтовскому мифосу, ещё не изучалось сходство между Р'льехианским и естественными языками, имеющими решающее значение для определения его истинного происхождения. Ниже мы составили полный перечень слов Р'льехинского языка и использовали инструменты языковой идентификации на основе открытых статистических моделей 𝑁-грамм частот (𝑁-gram) для поиска естественных языков, наиболее схожих с Р'льехианским. На основе подробного списка слов мы также выстроили таблицу частотности всех униграфов (письменных символов — или графем, соответствующих звуковым фонемам языка) и диграфов (символов, используемых для написания знаков из двух букв, издающих один звук — фонему, либо последовательность фонем) в Р'льехианском языке. Наша работа показала, что более всего Р'льехианский похож на Кельтские языки, что даёт основание для гипотезы о том, что город Р'льех, где «мёртвый Ктулху ждёт и грезит», вполне может быть местом на территории британского Уэльса — самобытной исторической области (древнего конгломерата кельтских княжеств), включающей полуостров Уэльс и более 50-ти близлежащих островов, расположенных на юго-западе Великобритании. Также, созданные нами частотные таблицы будут полезным источником для дальнейших исследований в области Лавкрафтовской мифологии.
* * *
Раздел-1: Введение.
Говард Филлипс Лавкрафт считается одним из наиболее влиятельных авторов жанра ужасов XX века. Р'льехианский язык — это вымышленная речь, при помощи которой общаются космические божества (Великие Древние) в Лавкрафтовской истории «Зов Ктулху» (1926), и в его более поздних произведениях. В преданиях Лавкрафта утверждается, что этот язык был привнесён на доисторическую Землю межзвёздным потомством Великого Ктулху. Имена этих древних могущественных божеств, до некоторой степени, также позволяют нам больше узнать об их иномирной космологии. Ниже приведён пример предложения на Р'льехианском языке:
Рh'nglui mglw'nafh Cthulhu R'lyeh wgah'nagl fhtagn.
В своём доме в Р'льехе мёртвый Ктулху ждёт и грезит.
В ранее выходивших работах, посвящённых Лавкрафтианским мифам, сходство Р'льехианского языка с естественными языками не учитывалось, и было сосредоточено главным образом на использовании Лавкрафтом английского языка. Поскольку Р'льехианский язык был латинизирован, он пригоден для 𝑁-грамм анализа частоты символов, и следовательно, поддаётся идентификации. В предыдущих исследованиях также не было определено точное местоположение затонувшего города Р'льех. По утверждению Говарда Лавкрафта, Р'льех расположен на координатах 47°9'ю.ш. и 126°43'з.д. в южной части Тихого океана, в то время как писатель Август Дерлет (см. «Чёрный Остров», Weird Tales, 1952), корреспондент Лавкрафта, помещает Р'льех на 49°51'ю.ш. и 128°34'з.д.. Оба этих места находятся недалеко от Тихоокеанского «полюса недоступности» или так называемой точки «Немо» (48°52,6'ю.ш. и 123°23,6'з.д.) — точки в океане, максимально удалённой от любой суши. Определив естественные языки, наиболее схожие с Р'льехианским, мы надеемся обнаружить истинное местонахождение пристанища Древнего Ктулху.
Наша работа структурирована следующим образом: В Разделе-2 мы кратко обсуждаем Р'льехианский язык и его фонологию. В Разделе-3 мы описываем перечень романизированных слов, генетически восходящих к Латыни, а так же инструменты идентификации языков на основе открытых моделей 𝑁-грамм, которые мы использовали для выявления естественных языков, наиболее похожих на письменный Р'льехианский. В Разделе-4 мы приводим результаты идентификации языка и обсуждаем их значение для определения местоположения затонувшего города Р'льех. В Разделе-5 мы делаем заключительный вывод и предлагаем направление для дальнейшей работы.
.
Раздел-2: Р'льехианский язык.
Р'льехианский (R’lyehian), также известный как Ктувианский (Cthuvian) — это язык, созданный Говардом Лавкрафтом для своего рассказа 1926-го года «Зов Ктулху». В отличии от некоторых других вымышленных языков, например, таких как Эльфийский язык («Синдарин»), разработанный писателем Дж.Р. Толкиным (прим., — в легендариуме Толкина представляет собой один из эльфийских языков — «речь Синдар», частично основанную на Валлийском языке и обладающую особенностью — мутацией согласных, подобно древним Кельтским языкам. Толкин обсуждает этот искусственный язык в своём эссе 1931-го года «Тайный Порок»), или Клингонский язык, созданный американским лингвистом Марком Окрандом* для вселенной научно-фантастического сериала «Звёздный Путь» (Star Trek), в отличии от них Р'льехианский язык Лавкрафта представлен лишь фрагментами и не имеет полного словаря или грамматики. (*прим., — до своего ухода в кинематограф доктор лингвистики Марк Окранд углублённо занимался изучением языков индейцев Северной Америки в рамках известной филологической школы Мэри Хаас, включающей полный цикл исследований по каждому индейскому языку: грамматика, текст и словарь. Среди поклонников Марк Окранд прославился как автор «Клингонского словаря» и «Вулканского языка» для культового сериала «Звёздный Путь», а так же «Атлантийского языка» для полнометражного научно-фантастического мультфильма 2001-го года «Атлантида: Затерянный мир»). Теперь мы перечислим несколько фактов известных о Р'льехианском языке:
- Как предполагается, он непроизносим для людей. Р'льехианский язык не имеет канонического разговорного содержания и является языком, созданным исключительно для адаптации чего-то изначально непроизносимого. Этот язык описывается как звучащий странно и гортанно, и считается, что его невозможно произнести человеческим речевым аппаратом. Несмотря на это, люди пытались и продолжают пытаться транскрибировать Р'льехианский язык (преобразовать голосовую информацию в текстовую), что приводит к появлению групп согласных, звучащих весьма непривычно для нашего уха.
- Поскольку в нём используется множество различных префиксов и суффиксов, его можно классифицировать как синтетический язык. (прим., — синтети́ческие языки — это типологический класс языков, в предложениях которых преобладают синтетические формы выражения синтаксических отношений. Синтетические формы встречаются во многих языках мира. Поскольку язык, в принципе не бывает типологически однородным, термин «синтетические языки» применяется на практике к языкам с высокой степенью синтеза, например к русскому, латинскому, армянскому, немецкому, к тюркским и финно-угорским языкам, а также к большинству языков хамито-семитской группы (афроазиатским). К сожалению, у нас недостаточно данных чтобы более точно классифицировать Р'льехианский как агглютинативный или фузиональный (инфлективный) язык. (подробнее см. статью «Синтетический язык» в Википедии).
- В нём нет различий между прошлым и будущим, есть только настоящее (текущее) и ненастоящее (непередаваемое), поскольку Древние существуют во всех временах одновременно. (Есть отдельные слова для описания нижнего мира, мира снов и мира разума. Древние способны действовать в любом из этих миров по своему желанию).[/i]
- Он не различает частей речи и имеет свободный порядок слов.
- Он записан в Иерогли́фике. Романизированное (латинизированное) написание показывает, как эту речь передают носители английского языка. «[Слово "Ктулху"] представляет собой неуклюжую попытку человека уловить фонетику абсолютно нечеловеческого слова...» (Г.Ф. Лавкрафт: Избранные письма 1934-1937, том 5, Arkham House, 1976).
Некоторые полезные сведения о Р'льехианском языке также можно найти в работе Кристофера Л. Робинсона «Тератонимия: странные и чудовищные имена Г.Ф. Лавкрафта» (Журнал по Ономастике, Maney Publishing, 2010), в которой описываются имена-тератонимы («terato»/монстр + «nym»/имя), использованные писателем:
«Тератонимы Говарда Лавкрафта — чудовищные изобретения, искажающие звуковые формы английского языка и затемняющие те смысловые значения, которые традиционно ассоциируются с литературной ономастикой (прим., — ономастика — раздел языкознания, изучающий любые собственные имена, историю их возникновения и трансформации). Понятие Дж.Р. Толкина о лингвистическом стиле предоставляет полезную концепцию для изучения того, как эти имена играют на расстоянии и близости с английским языком, вызывая определённые исторические и культурные коннотации. Некоторые наименования имитируют звуки и формы иностранных терминологий, имеющих «странные» смысловые оттенки в следствии того, что в народном воображении они связаны с Каббализмом или декадентской античностью. Другие, вводят звуковые шаблоны, лежащие за пределами фонетики английского языка или противоречащие его фонотактике, что приводит к появлению неудобных для произношения анти-эстетических словесных конструкций. С точки зрения понимания эти тератонимы, в некотором смысле, напрашиваются на сравнение с действующими на подсознательном уровне «эзотерическими» терминами, о чём рассуждает в своих исследованиях французский профессор английского языка Жан-Жак Лесеркль (Университет Париж X-Нантер), поскольку они приуменьшают или затушёвывают смысловое содержание, в тоже самое время усиливая эмоциональное (аффективное) значение и повышая осведомлённость читателя о физиологическом порождении речи».
Кристофер Л. Робинсон подробно рассматривает особенности, использованные Лавкрафтом для того, чтобы данный язык казался малоприятным, отталкивающим и грубым, а также рассказывает о влиянии других языков (арабского, иврита и фрагментов некоторых африканских языков) на эти тератонимы. Некоторые из изложенных выводов могут быть в целом также применены к Р'льехианскому языку. По мнению Робинсона, намеренная необычность Р'льехианского языка создавалась на трёх уровнях:
1. Отдельные звуки.
2. Звукосочетания.
3. Словоформы.
На первом уровне необычность выстраивалась путём группирования согласных звуков нетипичных для английского языка, таких как аспирированные (придыхательные) согласные или различные назальные (гнусаво-носовые) сочетания, например: «БН» (bn), «МН» (mn), «МТ» (mt), «МТХ» (mth), или «ПН» (pn).
На втором уровне непроизносимость создавалась так же, как и на первом, путём создания групп звукосочетаний, неестественных для английского языка, или путём использования буквенных связок, встречающихся в английском языке, но помещённых «в формы или позиции, противоречащие его фонотактике». (прим., — «фонотактика» определяет допустимую структуру слога, группы согласных и последовательности гласных с помощью фонотактических ограничений на допустимые сочетания фонем — звуков). К примеру: начинать слог со связки, которая, как правило, появляется в конце английских слов, например: «ПТХ» (pth) в слове «DEPTH».
Что касается третьего уровня, словоформы, то, просто взглянув на слова Р'льехианского языка, уже можно сказать, что он выглядит и звучит неестественно и странно. Для достижения этой цели Лавкрафт использовал в словоформах низкие «А» (a) и заключительные «У, О» (u, o) гласные и согласные буквы, которые при произношении воспринимаются как резкие и диссонирующие.
Произношение.
Не существует чётких правил произношения Р'льехианского языка. Насколько нам известно сам Лавкрафт описал только произношение имени «Ктулху»:
«Реальное звучание — насколько человеческие органы смогут его имитировать или человеческие буквы могут его записать — можно воспринимать как нечто вроде «ХЛУЛ'ХЛУ» (Khlûl'hloo), причём первый слог произносится утробно и очень густо. «У» (u) — звучит примерно также в полном объёме; и первый слог по звучанию мало чем отличается от «КЛУЛ» (Klul), так как «Х» (H) обозначивает гортанную плотность звука. Второй слог передан не очень хорошо — звучание буквы «Л» (L) не представлено». (Г.Ф. Лавкрафт: Избранные письма 1934-1937, том 5, Arkham House, 1976).
Грамматика.
Р'льехианский язык обладает свободным порядком слов; он широко использует префиксы и суффиксы для изменения и получения других значений от уже существующих слов. В отличии от земных языков, Р'льехианский не делает различий между существительными, глаголами, прилагательными и другими частями речи. Местоимения могут появляться, а могут и не появляться. Глаголы имеют только две формы времени: настоящее и ненастоящее, поскольку Древние воспринимают время нелинейно. По этой причине, вырванный из контекста возможный перевод любого фрагмента этой речи является не более чем догадкой. Мифы Ктулху отличаются от нашего мира, поэтому дословный перевод с английского языка на р'льехианский также невозможен.
Раздел-3: Методы.
Для выявления наиболее похожих естественных языков нам потребовался свод или список слов Р'льехианского языка, а также инструмент для языковой идентификации, созданный на основе статистической последовательности элементов 𝑁-грамм с предварительно обученными моделями для естественных языков. В этом разделе мы представляем полный перечень Р'льехианских слов и таблицу частот всех униграфов и диграфов в Р'льехианском языке, а также инструменты языковой идентификации, которые мы использовали в нашем эксперименте.
Р'льехианский перечень слов.
Из-за достаточно нечастого употребления Р'льехианского языка в произведениях Лавкрафта мы решили не создавать свой собственный словарь Р'льехианских слов. Вместо этого мы объединили информацию с двух известных онлайн-ресурсов (https://lovecraft.fandom.com/wiki/R%27lye... | https://naguide.com/call-of-cthulhu-rlyeh...) в подробный список слов, который приводим ниже в алфавитном порядке:
01. ah 25. grah’n 49. n’gha 73. tharanak
02. athg 26. h’ehye 50. n’ghft 74. thflthkh’ngha
03. bug 27. hafh’drn 51. naf’lthagn 75. throd
04. bugg-shoggog 28. hai 52. nglui 76. uaaah
05. cf’ayak 29. hastur 53. nilgh’ri 77. uh’e
06. cf’tagn 30. hlirgh 54. nog 78. uln
07. chtenff 31. hrii 55. nw 79. ulnagr
08. cthugha 32. hupadgh 56. ooboshu 80. vugtlag’n
09. cthulhu 33. iä 57. orr’e 81. vugtlagln
10. ebumna 34. ilyaa 58. ph’nglui 82. vulgtlagln
11. ee 35. k’yarnak 59. ph’nglui 83. vulgtm
12. ehye 36. kadishtu 60. phlegeth 84. vulgtmm
13. ep 37. kn’a 61. r’luh 85. wgah’n
14. farnomi 38. li’hee 62. r’lyeh 86. wgah’nagl
15. fhtagn 39. llll 63. ron 87. y’bthnk
16. fhthagn-ngah 40. lloig 64. s’uhn 88. y’hah
17. fm’latgh 41. lw’nafh 65. sgn’wahl 89. ya
18. fomalhaut 42. mg 66. shagg 90. ygnailh
19. ftaghu 43. mglw’nafh 67. shogg 91. yog-sothoth
20. geb 44. mnahn’ 68. shtunggli 92. yuggoth
21. gnaiih 45. n’gai 69. shugg 93. zhro
22. gof’nn 46. n’gha’ghaa 70. sll’ha
23. goka 47. n’gha-ghaa 71. stell’bsna
24. gotha 48. n’grkdl’lh 72. syha’h
.
Из списка Р'льехианских слов мы извлекли аффиксы (это морфемы, присоединяющиеся к корню и служащие для образования слов):
01. -agl 05. -og 09. c- 13. ng-
02. -agn 06. -or 10. h’- 14. nnn-
03. -agr 07. -oth 11. na- 15. ph’-
04. -nyth 08. -yar 12. nafl- 16. y-
.
Ниже, на основе выше-опубликованного «словаря» мы выстроили таблицу частотности всех униграфов и диграфов в Р'льехианском языке (Таблица-1). Наша таблица показывает, что Р'льехианский язык состоит из 7-ии гласных и 28-ми согласных букв, включая 11 диграфов (звуковых фонем), в основном образованных согласной «+h», которая меняет произношение первой согласной буквы.
Идентификация языка.
Далее мы описываем инструменты с открытым исходным кодом, которые мы использовали для идентификации языка в нашем эксперименте. Наша выборка базируется на исследовании «Автоматическая идентификация языка в текстах» — научном обзоре, опубликованном в американском международном «Журнале Исследований Искусственного Интеллекта» — JAIR №65 (авторы работы: Т.С. Яухиайнен, М. Луи, Т. Болдуин, М. Зампьери, К. Линден; Университеты Рочестера, Мельбурна и Хельсинки; изд-во «AAAI Press», 2019). Затем мы представим главную тройку языков, идентифицированных данными инструментами.
.
Таблица-1:. Таблица-2:
Частотность всех униграфов и диграфов Три наиболее близких к Р'льехианскому
в Р'льехианском языке, извлечённых естественных языка определены с помощью
из подробного списка слов. трёх различных инструментов языковой идентификации.
Мы классифицируем униграфы Языки Кельтской группы выделены тёмным цветом.
на согласные и гласные.
_________________________________ ______________________________________________________
Униграфы Диграфы Инструменты Языки
Согласные Гласные ------------------------------------------------------ ----------------------
----------------------------------------------
g 9.06% a 12.33% th 2.89% TextCat Шотландский, Мэнский, Валлийский
n 7.90% ’ 7.71% gh 2.31% Cld2 Ирландский, Хорватский, Сесото (Южно-африканский)
l 7.51% u 5.59% ng 1.35% LangDetect Сомалийский, Индонезийский, Валлийский
h 5.39% o 4.05% sh 1.35% ------------------------------------------------------ ----------------------
r 3.47% i 3.85% fh 0.96%
t 3.08% e 3.47% lh 0.77%
f 2.31% ä 0.19% ph 0.58%
y 2.31% ch 0.19%
m 1.93% kh 0.19%
k 1.73% yh 0.19%
s 1.54% zh 0.19%
b 1.35%
w 1.16%
d 0.96%
v 0.96%
c 0.77%
p 0.39%
----------------------------------------------
Кратко об инструментах.
«TextCat» — в своей основополагающей работе 1994-года «Категоризация текста на основе 𝑁-грамм» (см. материалы III ежегодного симпозиума «SDAIR-94» по анализу документации и поиску информации) У.Б. Кавнар, Дж.М. Тренкл и другие исследователи, описывают нестандартный метод языковой идентификации на основе 𝑁-грамм, который реализуется с помощью инструмента «TextCat» с открытым исходным кодом. «TextCat» содержит модели для 69-ти естественных языков.
«Cld2» (Compact Language Detector 2) — это идентификатор языка, работающий в веб-браузере «Google Chrome». Для кодовых блоков «Юникода», которые один к одному сопоставляются с обнаруженными языками, идентификатор «Cld2» использует несложные правила. Для остальных, «Cld2» использует классификатор «Naive Bayes» по образу 𝑁-грамм. «Cld2» содержит модели для 160-ти естественных языков.
LangDetect — идентификатор языка, также использующий классификатор «Naive Bayes» на символах 𝑁-грамм. Как и идентификатор «Cld2», «LangDetect» применяет к вводимому тексту ряд эвристических правил нормализации. «LangDetect» поддерживает 55 естественных языков.
______________________________________________________ _________
______________________________________________________ _______
______________________________________________________ _______
______________________________________________________ _______
______________________________________________________ _______
______________________________________________________ _______
______________________________________________________ _______
Раздел-4: Полученные результаты.
Показатели, указанные в Таблице-2, ставят Р'льехианский язык ближе всего к старым Кельтским языкам (Шотландскому, Мэнскому, Ирландскому и Валлийскому), при этом Валлийский является наиболее частым среди трёх самых близких языков. Исходя из полученных данных мы предположили, что городом «Р'льех» может являться уединённый британский остров Калди, расположенный на расстоянии около двух километров от английского полуострова Уэльс на координатах 51°38'с.ш. и 4°41'з.д., где монахи в белых капюшонах, соблюдающие древние кельтские обряды, делают подношения из самого тёмного шоколада дремлющему Ктулху.
Для справки:
Остров Калди (англ. — Caldey; валлийское название — Ynys Bŷr) имеет очень давнюю и зарегистрированную историю, насчитывающую более 1500 лет, это один из священных островов Британии. Ряд традиций, унаследованных ещё от Кельтских времён, соблюдают монахи из Аббатства Калди, нынешние официальные владельцы острова. Кельтский монастырь был основан на острове в VI веке нашей эры, а с 1136 года здесь действовал монашеский Орден Бенедиктинцев, от которого в последствии ответвился Орден Цистерцианцев (OCist). Вплоть до XIV века цистерцианцы пользовались особой системой числовой записи с помощью символов-глифов (цистерцианских цифр или шифров), интерес к этой системе в разное время проявляли европейские масоны, оккультисты и Гитлеровские нацисты. В настоящее время на острове Калди находится римско-католический монастырь так называемых «белых» монахов-цистерцианцев (по цвету своего одеяния), или «траппистов». Религиозное движение траппистов зародилось на волне церковного реформаторства в середине XVII века в Восточной Франции, и в 1892-ом году было объединено в отдельный Орден Цистерцианцев Строгого Соблюдения (OCSO). Орден состоит из нескольких независимых друг от друга сообществ. Ныне проживающие на Калди монахи-цистерцианцы, прибыли на остров в 1929 году из Бельгии. Члены Аббатства Калди приносят монашеский обет не конкретно самому Ордену, а исключительно его местному воплощению, орденá подобного типа свободны развивать свой собственный характер и харизму, но каждый из его членов подчиняется общим правилам жизни по заветам Святого Бенедикта Нурсийского. Трапписты соблюдают устав Святого Бенедикта более строго, чем во всех остальных орденах. Они обязаны молиться 11 часов в сутки, сохранять постоянный обет молчания, прерываемый только для молитвенных песнопений или по уважительной причине, а также блюсти строжайший пост, облегчаемый только для больных. Сегодня островные монахи Аббатства Калди живут за счёт развития туризма, а так же занимаются изготовлением пива, сыра, женских духов и традиционного бельгийского шоколада. Правила Аббатства не разрешают мирским гостям и туристам оставаться на острове в вечернее и ночное время, но круглый год позволяют получить духовное прибежище.
.
Раздел-5: Заключение.
Хотя придуманный Лавкрафтом язык намеренно отличается от естественных языков, наши результаты показывают, что он был вдохновлён, сознательно или подсознательно, кельтским Валлийским языком. В будущей работе следует сравнить фонологию Валлийского и Р'льехианского языков, используя наш подробный перечень слов и частотную таблицу всех униграфов и диграфов, а также расширить Р'льехианский словарь, организовав специальную экспедицию в Уэльс, чтобы побеседовать с Великим Ктулху...
* * *
.
Author: Vít Novotný & Marie Stará.
Copyright © 2024 Masaryk University.
Перевод: © ZaverLast, 2024.
Ссылка: https://www.muni.cz/en/research/publicati...
____________________________________________________